GPUコンピューティングが導くエクサスケールコンピューティング

GPUコンピューティングの最新動向に関して、ファン氏は「PCから生まれたGPUがHPCの未来を左右するようになる」として、長崎大学の濱田剛准教授(先端計算研究センター超並列部門長)が構築したGeForceベースのスーパーコンピュータの事例を紹介し、コンシューマ市場向け製品で、手軽にHPCのGPUアクセラレーションを実現できる時代が到来したばかりか、同じ演算性能を実現するならば、CPUベースのHPCに比べて大幅に消費電力を低減することができるとアピールした。

さらに、同氏は、中国市場においては「天河1号A」が7000基のGPUを搭載し世界第2位の演算性能を実現しただけでなく、GPUコンピューティングベースのHPC環境整備が加速しており、中国科学院過程工学研究所の「Mole-8.5」が、先ごろ新型インフルエンザ(H1N1)のウイルスシミュレーションに成功した事例や、中国最大のゲノム解析研究機関であるBGIが、GPUコンピューティングを導入することで、従来は4日間近くかかっていたDNA塩基配列の決定データの解析を、わずか6時間に短縮した事例などを紹介。また、東京工業大学学術国際情報センターのGPUコンピューティングベースHPCの「TSUBAME 2.0」が、樹枝状結晶のシミュレーションで2ペタFLPOSの演算性能を実現したことが、HPC界におけるノーベル賞とも呼ばれるGordon Bell賞受賞に繋がったことも紹介された。

市販のGeForceでも、スーパーコンピュータを構築できるとして、長崎大学の濱田剛准教授の事例を紹介

7000基のGPUを搭載することで、世界第2位の演算性能を実現した「天河1号A」

中国科学院過程工学研究所の「Mole-8.5」が新型インフルエンザ(H1N1)のウイルスシミュレーションに成功した事例も紹介された

中国最大のゲノム解析研究機関であるBGIは、GPUコンピューティングを導入することで、従来は4日間近くかかっていたDNA塩基配列の決定データの解析を、わずか6時間に短縮

東京工業大学学術国際情報センターのGPUコンピューティングベースHPCの「TSUBAME 2.0」が、樹枝状結晶のシミュレーションで2ペタFLPOSの演算性能を実現したことでGordon Bell賞受賞したことも紹介された

ファン氏は、現在、スーパーコンピュータのTOP5においてGPUベースのHPCが3基ランクインしていることに触れ、今後はさらにGPUコンピューティングベースのHPCやアプリケーションが増えていくと予測。同社は、既存のHPC向けプログラムに対して、GPUによって高速化が可能なプログラム領域を特定し、同プログラムを再コンパイルし直すことで、大幅なパフォーマンス向上を図れるようにするGPU DirectiveベースのCPU/GPUプログラミング規格となる「OpenACC」をCray、CAPS Eneterprise、Portland Group(PGI)などとともに立ち上げ、同規格をオープンスタンダードとして普及させていく意向を示した。同氏は、このGPU Directiveを採用したOpenACCの採用事例として、豪メルボルン大学の海洋生物の一生のシミュレーションプログラムを2日間でGPUコンピューティングベースに移植し、従来の65倍の高速化を実現したことなどが紹介された。

GPU Directivesベースのプログラミング規格「OpenACC」の採用により、従来のHPC向けアプリケーションを短期間でGPUコンピューティング対応させることができるようになり、大幅なパフォーマンス向上を果たしているという事例を紹介

ファン氏は、HPC業界におけるもう一つのトレンドとして、エクサスケールHPC(1エクサFLOPS:1000ペタFLOPSを実現するHPC)実現に向けて、HPCはさらなる省電力化を進める必要があると説く。同氏は、現在、米国最速のHPC「Jaguar」が20万基のCPUをベースに2ペタFLOPSを実現するために7メガワットの電力を消費していることを挙げ、同アーキテクチャをベースにエクサスケールを実現するならば、北京オリンピックのメインスタジアムとなった北京国家体育場(愛称:鳥の巣)と同じ面積(330×220m)が必要となるばかりか、さらに消費電力については米国最大の水力発電施設であるフーバーダム(ネバダ州・アリゾナ州)の総出力と同じ2ギガワットを必要とすることになると言う。さらに、現在の半導体プロセス技術では、リーク電流の増大やしきい電圧の上昇によって、かつてのようなペースでCPUを高性能化していくことは難しいと指摘。「今後もHPCの高性能化に伴い、消費電力は増え続けるが、一般的には20メガワットがデータセンターやスーパーコンピュータ建設の限界になるだろう」と、今後のHPCは携帯電話やノートPCなどのように、一定の消費電力の枠内で設計されるべきだと言う。

編集部追記:
記事初出時、フーバーダムの総出力に例えたコンピューティング電力の消費量について、「フーバーダムの総出力と同じ2メガワット」との記述がありましたが、単位が誤っており、正しくは「フーバーダムの総出力と同じ2ギガワット」であるため、該当箇所を修正いたしました。

しかし、「シングルスレッド性能の向上ばかりにフォーカスしてきたCPUは複雑過ぎ、演算処理に必要とされる消費電力の50倍もの電力を、演算処理の効率的なスケジューリングのために使われている」(ファン氏)と説明。「20メガワットの枠組みで、CPUの性能向上だけでエクサスケールを実現しようとすれば、2035年までかかってしまう」という試算し、「もはやCPUテクノロジだけでHPCの高性能化を推し進めることは不可能」とし、「2012年に本格稼働すCrayのTitanでGPUコンピューティングを果たした場合、20ペタFLOPSを8.6メガワットで実現できるようになり、2019年には1エクサFLOPSを実現できる見通しだ」として、HPC業界全体がCPUとGPUが密接に連携を取るヘテロジニアスコンピューティングベースのHPCへの移行を加速する必要性を説いた。

米国最速のHPC「Jaguar」は、現在、20万基のCPUをベースに2ペタFLOPSを実現

現在のJaguarをベースにペタFLOPSの演算性能を実現するためには、鳥の巣の愛称でも知られる北京オリンピックのメインスタジアムと面積を必要とする上、消費電力については米国最大の水力発電施設であるフーバーダムの総出力と同じ2ギガワットを必要となる

2009年まで、HPC市場向けシステムは「プロセス技術の微細化、4年間で半導体の容量が半分になる」というデナードノスケーリング則にそって、同期間に8倍のパフォーマンスアップを続けてきたことで、消費電力あたりの性能は年に1.68倍に成長し続ける順調な進化を遂げてきた

2009年以降、半導体プロセス技術の進化に伴い、リーク電流やしきい電圧の上昇が深刻化したことで、いままでのペースでCPUを高性能化すると消費電力が大幅に跳ね上がることになった。このため、いまではHPC向けCPUも高性能化のペースが鈍化していると説明。このペースではエクサFLOPSの実現は、2035年までかかる計算になると言う

CPUはシングルスレッド性能を向上させるべく、分岐予測やスケジューリングなど、演算処理以外の部分でより多くの消費電力を消費している

シンプルなプロセッサコアを数多く搭載したGPUは、より少ない消費電力ですぐれた演算性能を発揮できる

今後、HPCの省電力性を高めながら演算性能を伸ばしていくには、CPUとGPUが密に連係した処理を行なうヘテロジニアスコンピューティングが最適だとアピール

ヘテロジニアスコンピューティングへの移行を加速することで、2019年には20メガワット以内でエクサFLOPSの性能を実現できる見通しだ

ヘテロジニアスコンピューティングが加速すれば、2019年には家庭用ゲーム機も数十テラFLOPSの演算性能を持てるようになると言う

Ubisoftが開発を進めている最新ゲームタイトル「Assasin's Cread : Revelations」のビデオ映像。ヘテロジニアスコンピューティングが普及すれば、この映像品質のゲームが2019年には家庭用ゲーム機でも楽しめるようになると言う

ファン氏は、同社が"GPUコンピューティング"と呼ぶヘテロジニアスコンピューティングは、PCのみならずゲームコンソールや携帯電話などにも大きな性能向上をもたらすという見方を示す。同氏は、HPCの性能向上をほかのコンピューティング製品にも適用するならば、現在数百ギガFLOPSの演算性能で実現している家庭用ゲームコンソールは、2019年には数十テラFLOPSの演算性能を持てることになり、映画品質のゲームタイトルを個人で手軽に楽しめるようになると説明。GPUの演算性能を活かせるアプリケーションが増えていけば、携帯電話やタブレットPCからHPCまで、さまざまなコンピューティングデバイスの可能性がさらに広がるとし、「GPUこそが、21世紀のコンピューティングのエンジンだ」として、キーノートを締めくくった。

ファン氏は、GPUこそが21世紀のコンピューティングの高性能化を推進する"エンジン"だ」とアピールして、キーノートを締めくくった